综合更强
大壮版
综合分第一,速度、体积、结构完整度更好,在 C/D/E 类表现也更强。
A-E Skill Benchmark / 2 Versions / 30 Creation Runs + 15 Baselines
这轮最重要的结论,不是一句简单的“谁更强”。更准确的说法是:这轮最重要的结论是:大壮版同时拿下综合分和纯语义准确率第一,但领先幅度仍然不够到“碾压”。
所以这份报告不是帮你“偏袒一个版本”,而是把两个版本在不同观察口径下的强弱拆开讲清楚:谁更快、谁更轻、谁更稳、谁在具体类型上更强。
One Screen Summary
这轮要避免一个常见误解:综合分第一,不代表每个维度都第一。这里把“综合分”和“纯准确率”并排摆出来,防止误读。
综合更强
综合分第一,速度、体积、结构完整度更好,在 C/D/E 类表现也更强。
文案更稳
在内容型 skill 上依然稳定,但创建速度、token 和体积不占优。
Why This Counts
这不是拿两个 creator 随便写一题比感觉,而是把 skill 明确拆成 A 到 E 五种工作机制,再用同题同料同机同模去压。也就是说,它比较的是“在同样压力下,哪个 creator 更能稳定产出好 skill”。
这轮只比较 `官方原版` 和 `dazhuangskill-creator`,不引入第三版,结论更聚焦。
不是只看一种 skill,而是分别压文案型、结构型、调研型、脚本型、混合型五类。
同一台机器、同一 Codex、同一模型 `gpt-5.4`、同一 harness、同一份 frozen brief/fixtures。
每个类型每个版本重复 3 次,不把一次手气当结论。
创建输出、下游回答、脚本校验、token、耗时都保存到本地。
对比对象只读使用,最后有 manifest diff 证明没有动原目录。
What Was Tested
这五类不是按行业分,而是按 skill 的工作机制分。这样最后得到的不是一句空泛的“谁强”,而是“谁更擅长做哪类 skill”。
A 类|小红书文案型
测提示词、reference、模板资产的组织能力,以及内容型 skill 的上岗质量。这是最贴近真实业务的一类。它不只是测会不会写提示词,还测 creator 能不能把平台风格、禁忌词、固定格式、素材约束组织成可复用 skill。
B 类|结构化输出型
测严格 JSON schema 约束、边界样本稳定性、可维护配置意识。这是最客观的一类,可以直接校准 creator 有没有把 skill 做成“能执行的规约”,而不是漂亮说明文。
C 类|工具/调研型
测 creator 会不会让 skill 去看源文件、组织证据、附来源、避免瞎总结。为了可复验,这里故意用冻结本地语料,而不是开放互联网。这样同题同料同源,结论才稳。
D 类|自动化脚本型
测 creator 能不能产出真的可运行的脚本型 skill,而不是只写一堆看似专业的流程。这类 skill 的关键不是文采,而是能不能跑、跑得对不对、失败会不会收住。
E 类|混合编排型
测 prompt + reference + asset + script 的协同编排能力。它最接近真实生产工作流,也是最容易把 creator 的架构差距拉开的题型。
Scoring Logic
综合排序不是凭感觉,而是按冻结好的权重算出来的。你如果只关心准确率,也可以单独看“纯语义准确率”列,不必被综合分带偏。
真实任务结果是否正确、是否值得用。
从 brief 到可用 skill 的时间、token、体积成本。
是否理解 brief、结构是否正确、脚本是否按要求可执行。
SKILL / references / assets / scripts 分工是否合理。
重复 3 次的波动是否够小。
| 版本 | 综合总分 | 纯语义准确率 | 实战效果分 | 创建耗时(秒) | 创建 token | 技能体积(bytes) |
|---|---|---|---|---|---|---|
| 官方原版 | 96.2 | 96.52 | 98.08 | 119.066 | 141,773.0 | 8,743.0 |
| 大壮版 | 99.44 | 96.76 | 100.0 | 102.742 | 151,546.0 | 6,541.0 |
Category Matrix
这一段最关键,因为它直接回答“到底该选哪个 creator 去做哪种 skill”。
| 类型 | 语义更强 | 速度更快 | 官方语义 | 大壮语义 |
|---|---|---|---|---|
| A 类|小红书文案型 测提示词、reference、模板资产的组织能力,以及内容型 skill 的上岗质量。 |
两边同档 同分 100.0 |
大壮版 97.47s |
100.0 | 100.0 |
| B 类|结构化输出型 测严格 JSON schema 约束、边界样本稳定性、可维护配置意识。 |
两边同档 同分 100.0 |
大壮版 121.03s |
100.0 | 100.0 |
| C 类|工具/调研型 测 creator 会不会让 skill 去看源文件、组织证据、附来源、避免瞎总结。 |
大壮版 语义 100.0 |
大壮版 74.86s |
98.89 | 100.0 |
| D 类|自动化脚本型 测 creator 能不能产出真的可运行的脚本型 skill,而不是只写一堆看似专业的流程。 |
两边同档 同分 100.0 |
大壮版 111.45s |
100.0 | 100.0 |
| E 类|混合编排型 测 prompt + reference + asset + script 的协同编排能力。 |
两边同档 同分 83.72 |
大壮版 88.94s |
83.72 | 83.82 |
Integrity
没有。所有写入都只发生在 `benchmark_skill_creator_ae_20260403`,原目录只读。下面这张表是最终 manifest diff 结果。
| 源目录 | 变更项 |
|---|---|
| 官方原版 | 0 |
| 大壮版 | 0 |
/Users/jammy/Desktop/龙虾架构/benchmark_skill_creator_ae_20260403/reports/benchmark_report.json/Users/jammy/Desktop/龙虾架构/benchmark_skill_creator_ae_20260403/manifests/source_manifest_diff.jsonBoundary & Honesty